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摘 要 : 人 工 智能 技术 发 展 迅 速 ， 出 版 产业 在 “四 全 媒体 ”的 指导 下 积极 融合 新 
技术 ，AI 语音 技术 〈TTS、ASR) 是 落地 最 早 、 应 用 最 广 的 人 工 智能 方向 。 本 文 
在 “CHESS 战略 ”的 理论 框架 下 研究 出 版 社 发 展 基于 AI 语音 技术 的 有 声 书 业 务 
策略 ， 首 先 以 “媒体 可 供 性 ”理论 闭 释 出 版 业 发 展 AI 有 声 书 的 必要 性 ， 再 以 
技术 、 政 策 、 市 场 、 人 人才、 管理、 资产 六 个 维度 的 产业 驱 力 来 分 析出 版 社 参 与 
AI 有 声 书 产业 面临 的 困境 ， 最 后 提出 对 于 出 版 社 开展 AI 有 声 书 业务 的 建议 与 展 
望 。 


Artificial intelligence is developing rapidly, and the publishing 
industry is actively integrating new technologies under the guidance of 
"Four Dimension Media"，and AI speech technology (TTS, ASR) is the 
earliest and most widely used AI direction. ln this paper, we research 
the strategy of publishing houses to develop audiobook business based on 
AI speech technology under the theoretical framework of "CHESS Strategy "， 
firstly, we explain the necessity of developing AI audiobook in the 
publishing industry with the theory of "Media Affordance Theory'". We 
then analyze the dilemmas faced by publishers participating in the AL 


audiobook industry in six dimensions: technology, policy, market, 


manpower, management, and capital，and finally propose Suggestions and 


prospects for publishers to develop the AI audiobook business. 
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近年 来 我 国 AI 语音 技术 进入 应 用 快速 落地 期 , 相 较 2016 年 之 前 在 情感 语音 
合成 与 自然 语义 理解 等 方向 取得 显著 突破 ,国内 外 相关 企业 都 纷纷 开放 语音 生态 
系统 ， 以 “产业 融合 ”的 方式 将 AI 语音 技术 应 用 于 各 种 场景 ， 并 且 在 短视 频 创 
作 、 虚 拟 偶像 (主播 ) 、 智 能 客服 、 智 慧 教育 、 智 能 汽车 等 行业 取得 成 功 的 商业 
应 用 。AI 语音 技术 的 两 大 分 支 : 语音 合成 〈TTS: Text To Speech“ 从 文本 到 语 
音 ”) 、 语 音 识别 (ASR: Automatic Speech Recognition“ 从 语音 到 文本 ”) 
的 技术 原理 使 其 天 然 地 适合 应 用 于 以 文字 编辑 为 工作 的 出 版 行业 。 在 快速 发 展 的 
“声音 经 济 ” 中 ， 出 版 社 可 以 通过 应 用 AI 语音 技术 解决 音频 内 容 制作 能 力 弱 的 
问题 ， 以 极 低 的 成 本 快速 生成 人 耳 难 辨 真 伪 的 首 频 内 容 ， 使 其 在 出 版 、 网 络 音 视 
频 、AI 的 “产业 融合 ”中 获得 更 大 发 展 空间 。 


一 、 以 “媒体 可 供 性 ”理论 阐释 出 版 业 发 展 AI 有 声 书 的 必要 性 


“可 供 性 ”的 概念 源 自 心理 学 领域 , 原意 指 生物 ( 或 行为 主体 ) 在 物理 环境 
中 潜在 的 各 种 行动 的 可 能 性 , 它 源 自主 体 对 效用 的 主观 感知 与 技术 的 客观 品质 之 
间 的 相互 作用 。 后 由 传播 学 学 者 潘 忠 党 引用 于 新 媒体 研究 ， 现 已 成 为 理解 新 的 
媒介 现象 , 评估 新 的 媒介 技术 、 形 态 、 结 构 发 展 潜力 的 一 种 系统 的 媒介 研究 框架 。 
媒体 可 供 性 强调 技术 对 传播 实践 的 塑造 ， 认 为 在 新 技术 改造 媒介 过 程 中 为 受众 
齐 来 的 新 “可 供 性 ”， 不 是 媒体 创新 预 设 的 目标 而 是 在 传播 实践 下 技术 、 媒 体 、 
受众 相互 作用 的 结果 。 因 此 “媒体 可 供 性 ”理论 框架 为 传统 媒体 的 融合 创新 提供 
了 新 的 指导 ,媒介 融合 的 目标 不 是 利用 新 技术 完成 新 功能 的 简单 嫁 接 , 而 是 在 受 
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众 与 媒介 相互 作用 的 过 程 中 诞生 新 的 “可 供 性 ”。 面 对 方兴未艾 的 AI 技术 ， 出 
版 产业 如 何在 传播 实践 中 探索 新 的 “媒体 可 供 性 ”， 为 受众 提供 丰富 高 效 的 媒介 
体验 ， 是 其 激发 新 增长 空间 的 战略 方向 。 


根据 艾 瑞 网 《2021 年 中 国 网 络 音频 产业 研究 报告 》 显 示 中 国 网 络 音频 产业 
规模 预计 在 2022 年 达到 229 亿 元 ， 有 声 读物 仍然 处 于 欣欣 向 荣 的 发 展 态势 ， 并 
且 AI 有 声 书 迅速 崛起 已 与 真人 有 声 书 呈 现 并 驾 齐 驱 的 趋势 。 AI 有 声 书 即 通过 语 
音 合成 技术 〈TTS) 将 文本 信息 转换 为 具有 人 类 情感 和 语言 特征 的 音频 信号 ， 进 
而 以 语音 识别 技术 〈ASR) 完成 口语 式 人 机 交互 。AI 有 声 书 在 制作 环节 以 全 自动 
化 的 长 文本 理解 、 语 音 合成 控制 、 自 动 化 后 期 替代 了 真人 有 声 书 需要 人 工 完成 的 
“ 画 本 ”、 试 音 、 录 音 、 审 听 、 后 期 等 环节 ， 甚 至 可 以 通过 语音 交互 与 有 声 书 实 
现 “ 对 话 ”。 


有 声 书 的 历史 远 早 于 印刷 书籍 ,在 印刷 机 器 发 明之 前 以 “ 口 - 耳 传播 ”的 “ 吟 
游 诗 人 ”对 平民 阶层 的 文化 生活 产生 深远 影响 , 我国 的 “评书 ”艺术 直接 影响 了 
通俗 文学 发 展 。1877 年 爱迪生 发 明 留 声 机 标志 有 声 书 进入 “ 口 一 机 器 一 耳 传 播 ” 
阶段 ， 最 初 有 声 书 广泛 应 用 于 以 盲人 、 儿 童 为 受众 的 公益 项 目 ， 随 着 信息 技术 进 
步 ， 有 声 书 的 发 展 经 历 了 从 盒 式 磁 带 到 CD 再 到 数字 格式 的 三 个 阶段 ， 如 今 已 成 
为 出 版 产业 的 重要 组 成 部 分 。2011 年 至 2013 年 间 晴 蚜 FM、 喜 马 拉 雅 、 懒 人 听 
书 先后 上 线 手机 客户 端 , 我国 的 有 声 书 产 业 进入 移动 互联 网 阶段 。 在 产业 层面 上 
形成 综合 在 线 音 频 平 台 与 垂直 听 书 类 平台 差异 化 竞争 ， 电 子 书 平台 听 书 功能 、 知 
识 付费 平台 听 书 功能 、 阅 读 类 微 信 公众 号 听 书 功能 和 谐 共 存 , 在 此 局 面 下 传统 出 
版 社 势 微 。 


在 Al 语音 技术 的 催化 下 ， 有 声 书 开始 了 “机 器 生产 ”-“ 机 器 传播 ”-“ 用 户 
体验 ”-“ 人 机 交互 ”的 循环 传播 模式 ， 下 面 以 “媒体 可 供 性 ”视角 简要 分 析 该 
模式 〈 详 见 图 1) 。AlI 语音 技术 主要 形 塑 了 有 声 书 的 生产 环节 ， 更 高 效 的 内 容 生 
产 力 带 来 的 新 可 供 性 表现 为 : 有 声 书 数 月 的 制作 周期 被 缩短 为 实时 合成 ; 前 期 的 
“ 画 本 ”制作 、 中 期 的 配音 , 后 期 的 审 听 包装 可 以 交 由 机 器 实现 全 流程 的 自动 化 ; 
技术 生产 要 素 为 主导 的 边际 成 本 趋 零 ， 通过 迭代 技术 与 离线 合成 实现 Al 有 声 书 
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的 精品 化 。 生 产 可 供 性 的 改善 使 内 容 供给 端 更 为 重视 Al 有 声 书 的 应 用 ， 如 数字 
出 版 “起 点 ”、 问 答 社 区 “ 知 乎 ”、 新 闻 媒 体 “ 财 新 ”等 平台 全 方位 的 引用 AI 
语音 技术 。 在 融 媒体 与 声音 经 济 的 背景 下 ,这 些 原 本 擅长 图 文 内 容 的 平台 通过 引 
入 技术 以 较 低 的 成 本 快速 搭建 起 自身 的 音频 传播 能 力 。 在 读者 体验 端 AI 有 声 书 
提供 了 更 易 得 且 便 宜 的 有 声 书 、 个 性 化 的 音色 选择 、 多 元 的 阅读 场景 、 无 障碍 的 
语音 交互 。AI 语音 技术 的 普及 使 文字 到 音频 可 以 一 键 转换 ， 视 觉 与 听觉 结合 构 
成 的 多 媒体 阅读 为 读者 带 来 更 好 的 体验 ， 例 如 ， 作 家 、 许 人 、 短 视频 创作 者 “ 叙 
全 ”【〔 拌 音 号 ; xuyi59) 把 AI 语音 技术 合成 的 诗作 上 传 在 拌 音 平台 ， 它 们 的 点 
赞 量 是 他 普通 图 文 作品 的 200 倍 左右 。 目 前 ，AI 有 声 书 依然 存在 情感 、 停 顿 、 
重音 、 语 调 、 语 速 不 够 自然 真实 的 问题 ,但 创造 新 媒介 的 技术 对 内 容 生 产 与 传播 
的 改造 是 一 个 精 增 过 程 ， 即 由 简单 向 复杂 发 展 且 不 可 逆 ,， 随 着 人 工 智 能 技术 进步 
AI 有 声 书 有 望 成 为 未 来 有 声 书 的 主流 形式 ， 出 版 社 应 该 把 握 住 AI 有 声 书 快 速 发 
展 的 机 遇 期 ， 控 索 新 的 业务 增长 点 。 


Al 有声 书 可 供 性 
生产 可 供 性 体验 可 供 性 
实 全 低 可 易 人 多 易 
时 自 成 迭 获 性 场 Sa 
性 动 代 性 化 景 互 


图 1 AI 有声 书 可 供 性 


二 、 出 版 社 发 展 AI 有 声 书面 临 的 问题 


2.1 现行 著作 权 法 不 完全 适用 ， 增 加 产业 发 展 不 确定 性 


著作 权 法 是 印刷 技术 的 产物 ， 其 产生 和 发 展 一 直 与 技术 的 进步 紧密 相连 ， 表 
现 为 著作 权 的 客体 不 断 增 加 和 对 作品 的 利用 方式 不 断 丰 富 。 基 于 AI 语音 技术 对 
作品 的 二 次 创作 在 我 国 现行 著作 权 法 下 仍 属于 模糊 范畴 。AI 语音 合成 是 否 侵犯 
作品 的 表演 权 或 复制 权 ， 实 时 和 非 实 时 语音 合成 在 法 律 界定 上 有 什么 不 同 ，AI 
语音 技术 完成 的 二 次 创作 音频 是 否 拥 有 著作 权 ，AI 语音 技术 模仿 某 一 真实 人 声 
创作 的 作品 著作 权 归 属 ? 以 上 问题 仍 未 形成 法 律 共识 。 由 于 缺少 清晰 的 法 律 界 定 ， 
出 版 社 在 制作 和 运营 AI 有 声 书 的 过 程 中 更 容易 产生 经 济 纠纷 ， 滞 后 的 著作 权 体 
系 为 这 项 业务 增添 了 巨大 的 风险 。 


2.2 IP 热潮 破坏 原 有 生态 ， 全 版 权 库 建设 后 继 乏 力 


“内 容 产业 ”的 核心 是 IP， 围 绕 一 个 IP 可 以 进行 影视 剧 改编 、 游 戏 开 发 、 
音乐 创作 、 二 次 元 创作 、 衍 生 品 开发 等 多 种 文化 产业 运作 ， 结 果 产 生 更 大 的 经 济 
效益 。 音 频 作 品 作为 一 种 以 声音 为 表现 形式 的 内 容 形态 已 经 被 纳 为 IP 生态 产业 
的 重要 一 环 , 在 此 背景 下 出 版 社 却 越 来 越 难 获得 作者 的 全 版 权 授权 。 主 要 原因 是 
出 版 社 缺乏 全 版 权 运 营 的 能 力 ， 或 是 优质 IP 在 出 版 前 已 授 出 其 他 权利 。 对 于 出 
版 社 来 说 优质 IP 是 核心 资源 也 是 稀缺 资源 ， 围 绕 它 可 以 开发 出 多 项 经 济 收益 。 
但 当前 出 版 社 在 签 新 书 时 往往 只 能 获得 图 书 出 版 授权 , 缺乏 全 版 权 库 建 设 能 力 对 
于 出 版 社 开展 AI 有 声 书 业 务 犹 如 无 米 之 炊 。 


2.3 新 业务 吸 需 新 技术 人 人才， 管理 落后 加 重 恶 性 循环 


新 业务 的 开展 需要 持续 投入 大 量 的 专业 人 力 资 源 , 虽然 技术 进步 提升 了 工作 
效率 , 但 新 技术 的 应 用 也 对 人 力 素质 提出 更 高 的 要 求 。 传 统 出 版 行业 属于 知识 密 
集 型 产业 ,聚集 了 大 量 优 秀 的 编校 人 才 , 但 在 数字 信息 时 代 技 术 与 运营 的 重要 性 
日 益 突 显 。 企 业 文 化 缺乏 创新 性 、 人 力 资 源 成 本 上 升 、 人 力 管 理 缺 乏 激励 性 等 问 
题 使 传统 出 版 社 既 难以 吸引 新 型 人 才 ， 又 造成 原 有 优秀 人 才 流 失 , 长 此 以 往 恶性 
循环 。 智 联 招聘 发 布 的 2021 年 第 四 季度 《中 国企 业 招聘 薪酬 报告 》 显 示 ， 出 版 
行业 平均 薪酬 为 9073 元 /月 , 在 48 个 行业 类 别 中 排名 35 位 ,整体 处 于 中 下 游 水 
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平 。 在 人 力 资源 高 度 市 场 化 的 背景 下 ， 工资 正 成 为 职业 选择 的 决定 性 因素 ， 出 版 
社 对 于 人 才 的 吸引 力 正 逐渐 下 降 。 而 AI 有 声 书 的 制作 与 运营 需要 有 技术 基础 和 
运营 经 验 的 人 才 ， 此 类 人 才 的 招聘 与 培训 需要 出 版 社 持续 投入 大 量 成 本 。 


2.4 融合 出 版 增加 内 容 生产 传播 复杂 度 ， 全 平台 运营 难 管理 


融合 出 版 要 求 出 版 社 具备 “一 次 生产 、 多 次 加 工 、 多 功能 服务 、 多 载体 〈 渠 
道 ) 传播 ”的 能 力 ， 对 应 的 每 一 环节 都 需要 投入 具备 技术 或 经 验 的 专业 性 人 力 资 
源 。 其 中 多 功能 服务 与 多 载体 (渠道 ) 传播 主要 指 “ 全 平台 运营 能 力 ”，AI 有 
声 书 在 完成 制作 后 便 进入 运营 阶段 。 与 传统 的 图 书 发 行 不 同 ， 虚 拟 存 在 的 AI 读 
物 属 于 内 容 服 务 型 产品 ， 内 容 品 质 与 服务 体验 共同 决定 读者 的 阅读 体验 。 并 且 它 
的 传播 能 力 与 复制 (印刷 数量 无 天 ， 而 与 传播 的 平台 、 媒 介 相 关 ， 全 平台 运营 
的 内 容 往往 可 以 获得 更 好 的 传播 效果 ,与 全 平台 运营 能 力 相 对 应 的 是 更 大 的 运营 
团队 ， 每 增加 一 个 传播 平台 或 媒介 时 运营 人 力 的 投入 也 需要 倍数 型 增长 。AI 有 
声 书 仅 是 众多 内 容 形式 中 的 一 种 ， 中 小 型 出 版 社 无 力 对 其 全 平台 运营 。 


2.5 超级 科技 平台 强化 垄断 优势 ， 中 小 出 版 社 被 剥夺 话语 权 


2021 年 10 月，《 中 华人 民 共 和 国 反 垄断 法 (修正 草案 ) 》 进 行 初次 审议 ， 
现 已 实施 13 年 的 《反华 断 法 》 迎 来 首次 修正 ， 释 放出 打击 平台 介 断 的 强 监 管 信 
号 。 得 益 于 我 国 对 新 业态 、 新 模式 秉持 包容 审慎 监管 的 态度 ， 互 联网 与 人 工 智 有 
等 产业 迅猛 发 展 ，AI 有 声 书 在 内 容 发 行 与 技术 支持 等 产业 链 坏 节 已 形成 数 个 具 
有 华 断 优势 的 平台 。 超级 平台 市 场 势 力 过 于 强大 ， 已 严重 危及 市 场 公平 竞争 和 技 
术 创 新 ， 对 数字 平台 从 立 ( 修 ) 法 到 执法 加 强 监管 ， 已 成 全 球 共 识 。 数量 众多 的 
中 小 型 出 版 社 和 图 书 公司 正在 产业 链 中 受到 强势 平台 的 倾 轧 ,在 产业 链 上 游 “ 阅 
文 ” 与 “晋江 ”两 个 平台 把 控 住 IP 的 输出 ，AI 语音 技术 服务 方面 “科大 讯 飞 ” 
基本 处 于 一 家 独 大 地 位 ， 而 有 声 读物 数字 发 行 平 台 也 基本 处 于 “BAT” 等 科技 巨 
头 的 势力 范围 ， 在 超级 平台 面前 中 小 型 出 版 社 和 图 书 公司 基本 没有 话语 权 。 
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2.6 科技 巨头 划 延 产业 链 上 下 游 ， 产 业 显现 马 太 效应 


5 孙 晋 . 数字 平台 的 反 歼 断 监管 呆 ]. 中 国 社会 科学 ，2021 (05) : 101-127+206-207. 


融合 出 版 改变 了 内 容 生产 ， 加 快 了 技术 融合 ， 丰富 了 传播 渠道 ， 增 加 了 服务 
类 型 ,导致 整个 产业 链 的 协作 分 工 日 益 复 杂 化 ,处 于 行业 中 游 的 出 版 社 将 面临 更 
高 难度 的 产业 协作 问题 。AI 有 声 书 产业 协作 要 求 产 业 链 上 下 游 协同 、 优 势 互 补 ， 
出 版 社 与 科技 平台 的 传统 合作 模式 基本 上 是 出 版 社 提供 内 容 , 科技 公司 提供 技术 
支持 , 平台 提供 流量 。 但 随 着 科技 平台 推行 内 容 生 态 战 略 ， 其 业务 开始 向 上 下 游 
拓展 ， 试 图 掌控 整个 产业 链 全 流程 以 获取 更 大 的 经 济 利润 。 例如， “腾讯 ”通过 
在 内 容 生 态 上 的 布局 , 已 经 获得 AI 有 声 书 从 IP 到 制作 再 到 发 行 的 全 产业 链 能 
AI 有 声 书 产业 在 发 展 初期 已 出 现 产 业 链 下 的 资源 马 太 效应 ， 出 版 社 正 在 产业 协 
作 的 过 程 中 被 边缘 化 。 


三 、 出 版 社 优化 AI 有 声 书 产品 的 路 径 


“CHESS 战略 ”是 “产业 融合 理论 ”的 经 典 模 型 ， 阐 释 了 企业 为 实现 融合 发 
展 需 要 采取 的 措施 。“CHESS” 中 的 “C” 代 表 创 新 性 集成 ，“H” 代 表 横 向 组 织 
结构 ，“E” 代 表 产 业 规范 标准 的 设 定 ，“S” 代 表 规 模 经 济 与 范围 经 济 ，“S” 
代表 系统 化 聚焦 流程 。 基 于 “CHESS 战略 ”构建 出 版 社 融合 发 展 AI 有 声 书 产业 
模型 ( 详 见 图 2) 并 具体 阐述 路 径 策略 ， 有 助 于 出 版 产业 与 高 新 产业 在 技术 与 制 
度 创新 的 基础 上 交叉 、 渗 透 、 重 组 ， 形 成 新 型 内 容 产 业 形 态 。 


3.1 开发 迭代 化 :阶段 式 产品 优化 ， 提 升 效 果 与 效率 


出 版 社 的 内 容 生 产 节奏 相 比 新 兴 媒 体 较 慢 ， 主 要 生产 深度 阅读 的 精品 内 容 ， 
一 本 图 书 从 选 题 到 发 行 短 则 数 个 月 长 则 数 年 , 而 且 版 本 更 新 以 年 为 单位 甚至 不 会 
更 新 版 本 。 但 信息 时 代 了 瞬息万变 ,内容 具 有 很 强 的 时 效 性 ,读者 的 喜好 与 需求 倒 
区 内 容 持 续 优 化 迭代 ， 技 术 更 新 也 要 求 内 容 形式 和 传播 方式 需要 不 断 提升 迭代 。 
对 于 AI 有 声 书 ， 在 出 版 社 缺 少 内 容 制作 经 验 ，AI 语音 技术 仍 未 完全 成 熟 的 条 件 
下 ， 需 要 出 版 社 通过 内 容 产品 迭代 的 方式 积累 制作 经 验 、 适 配 技术 升级 ， 以 制作 
出 不 断 满足 读者 新 需求 的 内 容 产品 。 相 较 于 传统 瀑布 模型 开发 方式 中 以 完成 完整 


的 系统 项 目 为 目标 , 迭代 化 方式 将 整个 项 目 目标 按照 逻辑 结构 划分 为 一 个 个 易于 
执行 的 小 任务 。 通 过 迁 代 化 的 开发 方式 可 以 快速 将 AI 有 声 书 推 癌 市 场 ， 然 后 根 
据 用 户 的 需求 反馈 不 断 迭 代 系 统 ， 增 加 新 的 功能 模块 ， 实 现 高 质量 、 高 效率 的 
AI 有 声 书 。 例如， 中 信 出 版 集团 2017 年 开始 打造 的 “中 信和 书院 ”最 初 以 数字 阅 
读 为 主 ， 经 过 多 次 迭代 并 引入 科大 讯 飞 的 AI 语音 技术 ， 现 在 已 经 发 展 成 为 包括 
文字 、 音 频 、 视 频 的 全 形态 、 系 统 性 多 媒体 知识 服务 平台 ， 大 量 读者 选择 付费 阅 
读 由 AI 语音 合成 技术 生成 的 有 声 读物 。 


3.2 经 营 差异 化 : 利用 长 尾 效应 与 头 部 精品 差异 化 竞争 


目前 真人 有 声 书 依然 主导 市 场 , 以 有 声 书 市 场 份额 占 比 最 大 的 平台 喜马拉雅 
为 例 ， 虽 然 其 上 线 了 大 量 由 AI 语音 技术 生成 的 有 声 书 ， 但 位 于 排行 榜 前 列 的 头 
部 作品 均 为 知名 主播 录制 ， 且 配音 演员 作为 卖点 之 一 被 体现 在 标题 上 。 此 外 ,在 
知识 付费 和 垂直 内 容 领 域 大 V 的 作用 难以 取代 , 真人 有 声 书 情感 细腻 的 听觉 体验 
和 更 为 自由 的 二 次 创作 对 于 AI 语音 技术 来 说 短期 难以 实现 。 因 此 ，AI 有 声 书 的 
商业 路 径 需 要 采取 差异 化 策略 ， 利 用 其 低 成 本 、 短 周期 、 快 速 大 量 合成 的 优势 主 
攻 中 腰部 和 尾部 作品 ， 这 一 策略 恰好 符合 长 尾 效 应 (The Long Tail Effect) 。 
主打 免费 音频 的 番 熙 畅 听 ， 作 为 网 络 音频 赛 道 的 新 入 局 者 通过 积极 引入 AI 语音 
技术 获得 竞争 优势 ， 在 其 内 容 分 类 中 “真人 朗读 ”与 “AI 朗读 ”作为 重要 的 分 
类 标签 并 列 排 布 ， 且 “AI 朗读 ”在 有 声 书 数量 、 收 昕 人数、 评分 三 个 重要 指标 
上 均 在 接近 “真人 朗读 ”。 出 版 社 应 该 将 储备 的 IP 资源 进行 划分 ， 头 部 IP 自主 
或 授权 第 三 方 录 制 成 真人 精品 有 声 书 , 而 中 腰部 IP 低 成 本 、 大 批量 生成 AI 有 声 
书 ， 以 实现 帕 累 托 最 优 (Pareto 0ptimality) 。 


3.3 业务 平台 化 : 构建 内 容 分 发 平台 ， 推 动 运营 全 面 化 


在 强调 信息 整合 与 价值 分 配 的 Web3. 0 时 代 ， 出 版 社 迫 切 需 要 构建 自主 的 内 
容 分 发 平台 ， 以 掌握 主动 权 降 低 对 超级 平台 的 依赖 。 目 前 出 版 社 构建 平台 主要 有 
两 条 路 径 : 一 是 借助 社交 媒体 的 流量 入 口 开 发 小 程序 ， 二 是 依靠 内 容 、 服 务 、 品 
牌 构建 网 站 (App) 平台 。 第 一 条 路 径 具 有 推广 成 本 低 、 开 发 门槛 低 、 无 须 用 户 


下 载 、 操 作 体验 佳 、 对 网 页 展示 兼容 性 强 等 优点 ， "但 在 借助 社交 媒体 流量 的 同 
时 也 会 加 深 对 其 依赖 ， 且 具有 入 口 深 、 功 能 简单 、 不 稳定 、 内 容 传播 效果 差 等 缺 
点 。 阿 拉丁 研究 院 发 布 的 《2021 年 小 程序 互联 网 发 展 白皮书 》 显 示 ， 全 网 小 程 
序数 量 已 超 700 万 ， 其 中 微 信 小 程序 开发 者 突破 300 万 ， 小 程序 DAU 已 超 4.5 
亿 ; 日 均 使 用 次 数 同比 增长 32%, 活跃 小 程序 则 增长 41%。 其 中 人 民 文 学 出 版 社 、 
中 华 书局 、 高 等 教育 出 版 社 等 出 版 社 已 上 线 小 程序 ,整体 来 看 小 程序 较 适 合 出 版 
社 优化 服务 和 促进 内 容 付费 。 第 二 条 路 径 对 于 中 小 型 出 版 社 难度 较 高 ， 并 不 适合 
所 有 出 版 社 , 需要 其 具有 提供 不 可 替代 服务 或 商品 的 能 力 。 但 其 优势 也 是 明显 的 ， 
网 站 (App) 平台 的 建立 将 加 强 其 护城河 ， 例 如 高 等 教育 出 版 社 旗下 的 “中 国 大 
学 MO0C” 是 一 个 成 功 案例 ， 它 通过 应 用 AI 语音 识别 技术 为 音 视频 内 容 快速 生成 
字幕 。 但 是 ， 构 建 自 主 内容 分 发 平台 并 不 是 要 舍弃 由 互联 网 巨头 控制 的 平台 ， 相 
反 出 版 社 要 加 强 AI 有 声 书 的 全 平台 运营 能 力 ， 这 既 有 利于 增强 传播 效能 ， 也 有 
助 于 遏制 超级 平台 的 垄断 。 


3.4 1P 产品 化 : 以 产品 思维 开展 营销 ， 与 分 发 平台 和 谐 共生 


“产品 经 理 "一 词 近 年 来 频频 见 诸 于 出 版 行业 。 产 品 经 理 引 入 出 版 产业 是 “ 产 
业 融 合 ” 发 展 的 产物 ， 也 是 内 在 运作 机 理 的 必然 要 求 。 虽然 图 书 营 销 专员 与 图 
书 产品 经 理 之 间 分 工 不 同 , 但 畅销 书 的 成 功 需要 图 书 产品 经 理 从 选 题 开 发 到 售后 
服务 的 整个 闭环 中 充分 考虑 营销 的 影响 。AI 有 声 书 的 产品 创作 过 程 同样 要 充分 
考虑 到 营销 环节 ,既是 为 了 最 大 化 IP 的 商业 价值 也 是 为 了 增进 IP 的 持续 影响 力 。 
微 信 、 拌 音 、 喜 马 拉 雅 等 大 平台 为 AI 有 声 书 的 传播 提供 了 更 具 效 能 的 渠道 ， 提 
供 IP 内 容 的 出 版 社 与 提供 流量 的 平台 是 一 种 和 谐 共 生 的 关系 。《2021 中 国 网 络 
视听 发 展 研究 报告 》 显 示 ， 喜 马 拉 雅 的 用 户 渗透 率 达 到 67. 1%， 牢 牢 占 据 着 在 线 
音频 行业 第 一 梯队 的 地 位 ， 全 端 平均 月 活跃 用 户 为 2. 68 亿 。 因 此 ， 出 版 社 发 展 
AI 有 声 书 同 真 人 有 声 书 一 样 需要 增加 在 喜马拉雅 FM 等 网 络 音频 平台 的 内 容 分 发 ， 
并 且 这 与 搭建 自主 的 内 容 平 台 不 冲突 。“ 产 业 融 合 ” 不 仅 从 微观 上 改变 了 产业 的 
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市 场 结构 和 产业 绩效 , 而 且 从 宏观 上 改变 了 一 个 国家 的 产业 结构 和 经 济 增长 方式 。 
内 容 出 版 与 AI 技术 “产业 融合 ” 既 可 以 减少 企业 成 本 ， 也 是 传统 产业 创新 的 重 
要 方式 和 手段 ， 有 利于 出 版 产业 结构 转换 升级 ， 提 高 国家 文化 竞争 力 。 


3.5 技术 服务 化 : 与 技术 企业 合作 共 赢 ， 支 持 技术 产品 服务 化 


“产业 融合 ”发 生 的 基础 是 技术 进步 和 放松 管制 ,阿里 云 全 球技 术 服务 总 经 
理 李 津 提 出 “从 技术 走向 产品 , 再 从 产品 走向 服务 是 所 有 技术 企业 的 必由之路 。” 
产业 互联 网 新 经 济 形 态 正在 形成 , 各 个 垂直 行业 的 产业 链 被 其 重 塑 和 改造 , 出 版 
行业 应 该 主动 利用 由 信息 技术 与 互联 网 平台 提供 的 技术 服务 产品 , 提升 技术 生产 
要 素 在 其 内 容 生产 种 的 比例 ,通过 技术 创新 提升 出 版 社 生产 力 。 当 前 技术 产品 服 
务 化 正 呈 现 出 技术 平台 化 、 云 端 化 、 标 准 化 、 基 础 化 ， 服 务 集成 化 、 多 元 化 、 个 
性 化 、 可 协同 、 跨 行业 的 特点 。“ 产 业 融 合 ” 改 变 了 企业 之 间 的 竞争 合作 关系 ， 
科大 讯 飞 等 以 AI 语音 技术 为 核心 的 开放 平台 通过 提供 技术 服务 方案 与 包括 出 版 
行业 在 内 的 各 行 各 业 实 现 合 作 共 赢 。 应 用 于 AI 有 声 书 的 技术 需要 具备 音频 采样 
与 编码 、 语 音 识别 数据 库 匹 配 、 语 音 转 文 本 、 长 文本 理解 、 情 感 语音 合成 、 自 动 


需 将 文本 情感 与 声音 情感 匹配 , 并 且 为 声音 增加 符合 人 类 语言 习惯 的 停顿 .重音 、 
语调 、 语 速效 果 。 优 秀 的 合成 语音 可 以 超出 人 耳 对 于 声音 情感 的 辨别 能 力 ， 目 前 
情感 语音 合成 依然 是 行业 难题 ， 商 用 AI 语音 合成 技术 的 情感 区 分 度 基本 处 于 8 
种 及 以 下 。 由 此 可 见 AI 语音 技术 存在 极 高 的 技术 门槛 ， 出 版 社 与 技术 企业 合作 
共 赢 ， 支 持 技术 产品 服务 化 成 为 必然 选择 。 
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图 2 出 版 社 AI 有 声 书 “产业 融合 ”发 展 模型 图 


